为了成功推荐(SR)成功,最近的作品着重于设计有效的顺序编码器,融合侧面信息以及挖掘额外的积极的自我实施信号。在每个时间步骤中对负面项目进行采样的策略较少探索。由于用户在培训过程中的兴趣和模型更新的动态,因此考虑用户的非相互作用项目的随机抽样项目作为负面的项目可能是不明智的。结果,该模型将不准确地了解用户对项目的偏好。识别信息性负面因素是具有挑战性的,因为内容的负面项目与动态变化的兴趣和模型参数相关(并且抽样过程也应该是有效的)。为此,我们建议为SR(Genni)生成负样本(项目)。根据当前SR模型对项目的学习用户偏好,在每个时间步骤中都采样了负项目。提出了有效的实施,以进一步加速生成过程,使其可扩展到大规模推荐任务。在四个公共数据集上进行的广泛实验验证了为SR提供高质量的负样本的重要性,并证明了Genni的有效性和效率。
translated by 谷歌翻译
沟通压缩是现代分布式学习系统的至关重要技术,可以减轻其在较慢的网络上的交流瓶颈。尽管最近对数据并行式训练的梯度压缩进行了深入的研究,但压缩了通过管道并行性训练的模型的激活仍然是一个空旷的问题。在本文中,我们提出了AC-SGD,这是一种新型的激活压缩算法,用于在慢速网络上进行通信有效的管道并行性训练。 AC-SGD与以前的激活压缩方面的努力不同,而不是直接压缩激活值,而是压缩激活的变化。这使我们能够首次向我们的知识表明,仍然可以实现$ o(1/\ sqrt {t})$收敛速率,即激活压缩的非convex目标,而无需对梯度做出假设无偏见对于具有非线性激活功能的深度学习模型不符合。然后,我们证明AC-SGD可以有效地优化和实施,而无需额外的端到端运行时开销。我们将AC-SGD评估为微调语言具有高达15亿个参数的模型,将激活压缩至2-4位。AC-SGD在较慢的网络中可提供高达4.3倍的端到端速度,而无需牺牲模型质量。此外,我们还表明,AC-SGD可以与最先进的梯度压缩算法结合使用,以启用“端到端通信压缩:机器之间的所有通信,包括模型梯度,远期激活和后退梯度压缩为较低的精度。这提供了高达4.9倍的端到端加速,而无需牺牲模型质量。
translated by 谷歌翻译
训练基金会模型(例如GPT-3和Palm)可能非常昂贵,通常涉及数以万计的GPU连续运行数月。这些模型通常经过专门的群集培训,这些群集具有快速,均匀的互连,并使用精心设计的软件系统来支持数据并行性和模型/管道并行性。这样的专用集群可能是昂贵且难以获得的。我们可以相反,可以利用更大量的分散,异质和较低的互连计算?先前的工作研究了可以纯粹以数据并行方式训练的相对较小模型的异质,分散的设置重点。模型平行基础模型培训(例如威震天)的最先进的方案仅考虑均匀的数据中心设置。在本文中,我们介绍了第一个研究大型基础模型的研究,该模型在异质网络上的去中心化制度中进行了模型并行性。我们的主要技术贡献是一种调度算法,该算法将不同的计算“任务”在培训基础模型中分配给通过缓慢的异质网络连接的一组分散的GPU设备。我们提供了正式的成本模型,并进一步提出了一种有效的进化算法,以找到最佳分配策略。我们进行了广泛的实验,这些实验代表了使用现实世界网络测量模拟的地理分布设备进行学习的不同方案。在最极端的情况下,在跨越3大洲的8个不同的城市中,我们的方法比以前的最新培训系统(Megatron)快4.8倍。
translated by 谷歌翻译
顺序建议通常被视为一项生成任务,即训练顺序编码器,以根据其历史互动项目生成用户兴趣的下一项。尽管这些方法普遍存在,但这些方法通常需要使用更有意义的样本进行培训才能有效,否则将导致训练有素的模型。在这项工作中,我们建议将顺序推荐人培训为歧视者,而不是发电机。我们的方法没有预测下一个项目,而是训练一个歧视器,以区分采样项目是否为“真实”目标项目。作为辅助模型的发电机与判别器共同训练,以取样合理的替代方案,并将在训练后抛弃。训练有素的判别器被视为最终的SR模型,并将其称为\ modelname。在四个数据集上进行的实验证明了拟议方法的有效性和效率。
translated by 谷歌翻译
至于场景图的生成(SGG),由于众包标签,数据集中的粗谓词混合了,并且长尾问题也很明显。鉴于这种棘手的情况,许多现有的SGG方法在一个阶段的混合颗粒性谓词的监督下平均处理谓词,并在一个阶段学习模型,从而导致相对粗糙的预测。为了减轻次优的混合粒度注释和长尾效应问题的负面影响,本文提出了一种新型的层次记忆学习(HML)框架,以从简单到复杂的模型学习该模型,这与人类类似于人类的模型。分层记忆学习过程。在粗糙和细谓词的自主分区之后,该模型首先在粗谓词上训练,然后学习细谓词。为了实现这种层次学习模式,本文首次使用新概念重建(CR)和模型重建(MR)约束来制定HML框架。值得注意的是,HML框架可以作为改善各种SGG模型的一种一般优化策略,并且可以在SGG基准(即视觉基因组)上实现显着改进。
translated by 谷歌翻译
基于深度学习的模型占主导地位的生产推荐系统的当前景观。此外,近年来目睹了模型规模的指数增长 - 从谷歌的2016年模型,最新的Facebook的型号有10亿个参数,具有12万亿参数。型号容量的每次跳跃都有显着的质量增强,这使我们相信100万亿参数的时代即将来临。然而,即使在工业规模数据中心内,这些模型的培训也在挑战。这种困难是从训练计算的惊人的异质性继承 - 模型的嵌入层可以包括总模型尺寸的99.99%,这是极其内存密集的;虽然其余的神经网络越来越多地计算密集型。为支持培训此类巨大模式,迫切需要有效的分布式培训系统。在本文中,我们通过仔细共同设计优化算法和分布式系统架构来解决这一挑战。具体而言,为了确保培训效率和训练精度,我们设计一种新型混合训练算法,其中嵌入层和密集的神经网络由不同的同步机制处理;然后,我们构建一个名为Persia的系统(短暂的并行推荐培训系统,其中包含混合加速),以支持这种混合培训算法。理论上的示范和实证研究均达到100万亿参数,以证明了波斯的系统设计和实施。我们将Pensia公开使用(在https://github.com/persiamml/persia),以便任何人都能够以100万亿参数的规模轻松培训推荐模型。
translated by 谷歌翻译
虽然最先进的传统代表学习(TRL)模型在知识图形完成上显示竞争性能,但实体的嵌入物之间没有参数共享,并且实体之间的连接较弱。因此,提出了基于邻居聚合的表示学习(NARL)模型,其将实体的邻居中的信息编码到其嵌入中。然而,现有的NARL模型只能利用一个跳邻居,忽略多跳邻居中的信息,或者通过分层邻居聚合利用多跳邻居,销毁多跳邻居的完整性。在本文中,我们提出了一个名为RMNA的NARL模型,它通过规则挖掘算法获得和过滤HOWN规则,并使用所选的喇叭规则将有价值的多跳邻居转换为一个跳邻居,因此,有价值的信息中的信息通过聚合这些单跳邻居可以完全利用跳跃邻居。在实验中,我们将RMNA与最先进的TRL模型和NARL型号进行比较。结果表明,RMNA具有竞争性表现。
translated by 谷歌翻译
与标准动态范围(SDR)视频相比,高动态范围(HDR)视频可以代表更大的亮度和色彩范围,并且正迅速成为行业标准。与传统SDR视频相比,HDR视频具有更具挑战性的捕获,传输和显示要求。凭借其更大的深度,高级的电流传输功能以及更广泛的颜色范围,因此需要专门设计用于预测HDR视频质量的视频质量算法。为此,我们介绍了HDR视频的首次公开发布的大规模主观研究。我们研究扭曲的影响,例如压缩和混叠对HDR视频质量的影响。我们还通过在黑暗实验室环境和更明亮的客厅环境中进行研究来研究环境照明对HDR视频感知质量的影响。总共有66名受试者参加了这项研究,并收集了20,000多个意见分数,这使得这成为有史以来最大的HDR视频质量研究。我们预计,该数据集将成为研究人员为HDR视频开发更好的感知质量模型的宝贵资源。
translated by 谷歌翻译
与常规知识蒸馏(KD)不同,自我KD允许网络在没有额外网络的任何指导的情况下向自身学习知识。本文提议从图像混合物(Mixskd)执行自我KD,将这两种技术集成到统一的框架中。 Mixskd相互蒸馏以图形和概率分布在随机的原始图像和它们的混合图像之间以有意义的方式。因此,它通过对混合图像进行监督信号进行建模来指导网络学习跨图像知识。此外,我们通过汇总多阶段功能图来构建一个自学老师网络,以提供软标签以监督骨干分类器,从而进一步提高自我增强的功效。图像分类和转移学习到对象检测和语义分割的实验表明,混合物KD优于其他最先进的自我KD和数据增强方法。该代码可在https://github.com/winycg/self-kd-lib上找到。
translated by 谷歌翻译
多元时间序列(MTS)预测在广泛的应用中起着至关重要的作用。最近,由于其最先进的性能,空间 - 周期性图神经网络(STGNN)已成为越来越流行的MTS预测方法。但是,随着绩效的有限改善,最近的工作变得越来越复杂。这种现象激发了我们探索MTS预测和设计模型的关键因素,该模型与STGNN一样强大,但更简洁,效率更高。在本文中,我们将样品在空间和时间维度中的不可区分性确定为关键瓶颈,并通过连接空间和时间身份信息(STID)提出了一个简单而有效的MTS预测基线,该信息可同时实现最佳性能和效率基于简单的多层感知器(MLP)。这些结果表明,只要它们解决样品的不可区分性,而无需限于STGNN,我们就可以设计高效有效的模型。
translated by 谷歌翻译